张维迎:谨防社会陷入“二阶囚徒困境”
黄土地上望星空
窑洞文化撞击企业家精神
欢迎关注 xinzhuangketang张维迎老师为辛庄课堂学员授课
二阶囚徒困境
人类社会的进步依赖于人与人之间的合作。合作的范围越广,程度越深,社会进步就越快。过去几百年市场化和国际贸易的发展就证明这一点。如果没有交易,每个人都自给自足,人类的生活恐怕还只能停留在原始状态。
社会合作面临的一个最大挑战是经济学家讲的“囚徒困境”,即:尽管合作会改进所有社会成员的福利,但每个人基于自利的个人最优选择是不合作,结果是聪明反被聪明误,所有人的利益都受损。
囚徒困境之所以发生,是因为当事人处于这样一种环境:对每个个体而言,最理想的结果是别人合作自己不合作(赚便宜),其次是所有人都合作(双赢),再次是所有人都不合作(双输),最悲惨的是自己合作别人不合作(吃亏)。比如说,在人民公社时期的生产队里,对每个农民而言,最好的结果是别人干活自己偷懒,其次是大家都干活,再次是大家都偷懒,最糟糕的是其他人偷懒自己干活。在这样的环境下,每个农民的最优选择是偷懒,结果是所有人都饿肚子。而如果他们都好好干活,是可以吃饱的。
解决囚徒困境需要有对不合作行为的惩罚(或激励)机制。惩罚的一种方式是“你不仁我不义”,“以德报德”“以怨报怨”。博弈论证明,如果交易关系是固定的,并且这种关系可能重复进行,每个人可以根据对方前期的行动选择相应的对策,如用“不合作”惩罚对方“不合作”的惩罚,用“合作”奖励对方的“合作”,相互合作就可能作为纳什均衡出现。这就是重复博弈下的声誉机制。这里,对不合作行为的惩罚是由受害当事人执行的,因而被称为“第二方执行”。
但现实社会人与人之间既有固定关系的交易,也有非固定关系的交易。事实上,现代社会的大部分交易是非固定关系交易。在非固定关系交易中,第二方惩罚常常是不可行的。比如说,你从4S店买了一辆汽车,即使你买到的车的质量没有商家承诺的那么好,你发现自己受骗了,但你没有可能通过“不再购买”惩罚商家,因为你在短时期内本来也不可能买第二辆车。对你只是一锤子买卖的事情,商家为什么要在乎你满意不满意呢?
为了解决一般的囚徒困境问题,社会既需要国家颁布的法律,也需要自发形成的社会规范。法律和社会规范都是通过“第三方执行”的,其中法律是由政府集中执行,社会规范由其他社会成员分散执行。所谓“社会规范”,就是公认的行为准则,它的执行是这样的:A欺骗了B,但B没有可能惩罚A,只能由C、D、E、F等其他某个(或多个)社会成员惩罚A。这样的惩罚机制类似其他人为B“打抱不平”。A确实会因为害怕C拒绝与自己交往而不敢欺骗B。但问题是C为什么要惩罚A?毕竟惩罚意味着C也错过某种有利可图的机会。一个人可能由于害怕别人的讥讽而遵守社会规范,但讥讽也是有成本的,讥讽者也可能被反讥讽,甚至受到被讥讽者的人身攻击。但如果每个人出于自身利益,只要骗子没有直接侵害自己的利益就听之任之,社会规范就不可能得到真正的遵守,社会合作就不可能维持。这就是社会合作的“二阶囚徒困境”(the second-order prisoners’ dilemma)问题。
让我举一个例子说明这一点。设想公共车上一个小偷正在行窃,受害人自己没有觉察,但你(旁观者)看见了。你是大喊一声“抓小偷”,还是把头转向另一侧假装没看见?如果你喊“抓小偷”,行窃行为会终止,但小偷也可能报复你(现场报复或事后报复)。由于害怕被报复,你可能假装没有看见。这里,小偷的行为是一阶囚徒困境问题;你自己没有行窃,但你没有阻止本来可以阻止的他人行窃,所以属于“二阶囚徒困境”。如果大部分人对小偷视而不见,偷窃行为就会泛滥,每个人的利益都受损。
研究法律和社会规范的学者提出多种理论解释社会规范的执行的问题。比如说,麦克亚当斯(McAdams,1997)提出了社会规范的“尊敬理论”(the Esteem Theory)。他认为,人们既需要得到他人的尊敬,也可以给予他人尊敬,正是对尊敬的竞争使得人们不仅愿意自己遵守社会规范,也有积极性鄙视不遵守社会规范的人。因为尊敬是无成本的,所以不存在二阶囚徒困境问题。与此相反,艾瑞克·波斯纳(Posner,2000)提出了社会规范的信号理论,根据这种理论,正因为遵守社会规范是有成本的,为了显示自己是合作型的人,人们才遵守社会规范。人们鄙视或惩罚不遵守社会规范的人,是为了传递自己是“好人”的信号。罗伯特·库特(Cooter,1995,2000)用社会规范内在化为道德来解决二阶囚徒困境问题,他认为,社会规范一旦内在化为道德,违反社会规范就给当事人带来心理伤害,所以道德水平高的人即使付出成本也愿意惩罚违规者。另外两个比较正式的理论模型是“联合制裁规则”(Mahoney 和Sanchirico,2003)和“敌友规则”理论(Bendor和Swistak,2001),这两种理论将社会规范解释为纳什均衡或演化稳定战略:只要预期多数人会遵守,每个人都有积极性遵守。
这几种理论是互为补充的。社会生活非常复杂,不同环境下社会规范不同,执行机制也不可能完全相同。下面我分别介绍一下联合抵制和敌友规则。
联合制裁
所谓“联合制裁”(boycott)是指:每一个社会成员都应该诚实,不应该欺骗,并且,每一个成员都有责任惩罚那些欺骗人的人;如果某个成员不惩罚骗过人的人,那么他本身就应该受到其他人的惩罚。也就是说, 一个社会成员不仅自己不能行不义之举,而且有责任阻止他人的不义之举。如果不伸张正义,姑息他人的违规行为,那么就应该受到惩罚。
设想一个多人组成的社会,每次博弈在随机相遇的两人之间进行,每个人可以选择合作,也可以选择不合作,每个人的行为可以被所有的人观察到,博弈是重复进行的。考虑如下社会规范:(1)在初期每个人都应该选择合作;(2)如果有违规者出现,所有人都不与前一次违规者合作,作为对他的惩罚;(3)违规者在接受惩罚之后可以得到宽恕,从下次开始合作恢复;(4)任何人如果没有履行惩罚义务,就变成新的违规者,在接下来的博弈中应该受到惩罚;如此等等。这里,“违规者”包括:(1)首先选择不合作的人;(2)没有对首先不合作者施行惩罚的人;(3)没有惩罚该惩罚而没有惩罚的人的人。
这个社会规范不同于简单的“以牙还牙,以眼还眼”战略,后者不仅惩罚首先不合作的人,也惩罚惩罚者(即如果A在第一期不合作,B就在第二期选择不合作以作为对A的惩罚,A又在第三期选择不合作作为对B在第二期不合作的惩罚,等等),但不惩罚不惩罚者(即如果B第二期没有惩罚A,A在第三期继续合作)。联合制裁的社会规范不仅惩罚首先不合作者,也惩罚不惩罚者(不见义勇为者应该受到惩罚),但不惩罚惩罚者(见义勇为者不应该受到惩罚)。
让我们用一个例子来说明这一点。假定一个社会由A、B、C、D、E、F、G、H、I和L十个人组成,在第一阶段A和B博弈,C和D博弈,…;第二阶段A和C博弈,B和D博弈,…;第三阶段A和D博弈,B和E博弈,…;等等。设想第一阶段A欺骗了B。那么,按照社会规范,在第二阶段,C就应该惩罚A,选择不合作,但A应该选择合作,表示接受惩罚。如果A和C都按照这样的规则行事,第三阶段开始所有人都恢复合作(A得到原谅)。但如果C在第二阶段没有惩罚A(假定A选择了合作表示愿意接受惩罚),第三阶段C和(比如说)F博弈的时候,F就应该选择不合作以惩罚C,但C必须选择合作。如果F这样做了,并且C也接受了惩罚,从第四阶段开始,所有人都恢复合作。但如果第三阶段F没有惩罚C,那么在第四阶段F和(比如说)L博弈的时候,L就应该选择不合作以惩罚F,但F必须选择合作。如此等等。
马豪尼和萨齐里柯(Mahoney 和Sanchirico,2003)证明,如果每个人都有足够的耐心,有关个人行为的信息足够透明,这个惩罚规则可以保证合作的出现,即没有人会首先选择不合作,每个人都有积极性惩罚违规者,每个违规者都愿意接受惩罚。
联合制裁规则既包含了惩罚,又包含了宽恕,体现了孔子讲的“以德报德、以直报怨”的恕道精神,执行起来也并不复杂。
二战后,联合制裁是维持国际和平的重要机制,主要表现为:(1)每个国家尊重他国的主权和领土完整;(2)任何侵害他国主权的行为应该受到所有国家的惩罚;(3)不惩罚侵略者的国家应该受到惩罚;(4)惩罚侵略行为的国家不应该受到惩罚。如果所有国家都遵守上述规则,侵略战争就不会发生,每个国家的主权都能得到维护。
敌友规则
联合制裁与日常生活中的“敌友规则”非常类似。该规则是这样的:一开始每个社会成员都是你的朋友,但是下一次某个成员还是不是你的朋友取决于他在前一次博弈中的行为:如果这个成员在前一次没有欺骗过任何人并且没有同你的任何一个敌人合作,那么他还继续是你的朋友;反之,如果这个成员欺骗过任何一个你的朋友,或者帮助过你的敌人,他就成为你的敌人。这个规则由以下三个具体规则组成:(1)“朋友的朋友是朋友”;(2)“朋友的敌人是敌人”;(3)“敌人的朋友是敌人”。
“朋友的朋友是朋友”是指,假如A和B是朋友和合作伙伴关系,A没有欺骗过B,B也没有欺骗过A;C和B也是朋友和合作伙伴关系,C没有欺骗过B,B也没有欺骗过C。那么,A就把C当朋友,C也把A当朋友,可以相互合作。
“朋友的敌人是敌人”是指,如果A和B是朋友,如果C欺骗了B,那么C就成为A的敌人,A就不应该与C合作。
“敌人的朋友是敌人”是指,如果A和B合作很好,C欺骗了B,那么根据前面讲的“朋友的敌人是敌人”,C就变成了A和B的共同敌人。现在假如有一个D,继续和C合作,那么这个D就变成了A和B的共同敌人。
按照敌友规则,人人是非分明,嫉恶如仇。本德尔和斯韦史特(Bendor and Swistak,2001)证明,如果大部分人足够重视未来,上述“敌友规则”不仅是一个纳什均衡战略,而且是演化稳定战略,即采取这一战略的人在社会竞争中最具有生存能力,演化的结果是整个社会变成一个合作社会。直观地讲,给定其他人都遵守这个规则,如果你欺骗任何一个人,你就变成所有其他人的敌人,成为孤家寡人,你在生存竞争者中就处于劣势。得罪一个人等于得罪所有人,这样的惩罚是非常严酷的。正因为其严酷,普遍的合作才成为可能。
社会合作的破坏
现实社会中,小至一个班集体,大至国际社会,很多合作确实是依靠集体惩罚维持的。比如,假设A同学在班级里欺负某个同学,那么其他同学就会孤立A,如果有(比如说)某个H同学当“老好人”,和A继续保持良好关系,那么H同学也将会遭到所有其他同学的鄙视。如果这些结果被A同学所预见到,那么A同学就不敢欺负人了。
国际关系中采取联合制裁便会形成联盟的集体行动。例如在伊拉克战争中,美国制定的一个规则是:所有关于伊拉克战后重建的合同都只给在伊拉克战争期间持积极态度的国家,不支持对伊拉克作战的国家将会受到某种形式的惩罚。这样,美国的盟国不得不纷纷加入到对伊拉克的战争中来,即便只是象征性地派出几名士兵。
由于利益关系的复杂性,现实中,无论是国际合作还是一般社会合作,总是面临“二阶囚徒困境”(甚至更高阶囚徒困境)的挑战。比如国际制裁中,参与制裁会失去与被制裁国家的合作机会(如参与制裁意味着不再能获得廉价的能源供给),由此某些国家可能不愿参加制裁。乌克兰战争中,如果(比如说)德国不参与对俄国的制裁,美国是否应该惩罚德国?毕竟,如果美国制裁德国,德国可能采取报复行动,使得美国的利益受损。但如果德国预期美国不会惩罚自己的背叛行为,它为什么要参与对俄国的制裁呢?由于不同国家之间经济、地缘政治及其他关系的相互依赖性不同,为了最大程度维护国家间正常的合作秩序,联合制裁规则对不同盟友的要求会有所不同,如一些国家投弃权票被视为默许,另一些国家投弃权票则被当作敌对行为。
类似地,在社会治安中,如果B没有阻止A的行窃行为,C是否有足够的动机惩罚B?如果C不惩罚B,D是否应该惩罚C? 如果D不惩罚C,E是否应该惩罚D?如此等等,每个人都可能有自己的小九九,该惩罚时可能选择不惩罚。由于每个人的行为很大程度上取决于他对别人行为的预期,如果人们预期多数人不会见义勇为,见义勇为的行为就会消失,损人利己的不义之行就会盛行。
社会是复杂的,推动和维护人与人之间的合作需要社会规范,也需要法律。可惜的是,我们当前的社会缺乏明确的社会规范和健全的法律,自然,社会成员之间的合作程度就受到不利影响。假冒伪劣横行,背信弃义遍地,权力任性,就是这个时代最为生动的写照。因此,要想提高社会成员之间的合作,就需要逐步确立起符合市场要求的社会规范,并完善我们的法律制度。
需要特别强调的一点是,好的社会规范必须得到好的法律支持。如果法律与社会规范相冲突,社会规范就容易陷入“二阶囚徒困境”。比如说,见义勇为是我们提倡的社会规范,但如果见义勇为的行为不仅得不到法律的认可和支持,甚至可能受到法律的惩罚,在不义行为面前人们就会“睁一只眼闭一只眼”“多一事不如少一事”,作恶者就会肆无忌惮,人们的安全感就会下降。
“二阶囚徒困境”是我们当前面临的一个重要挑战!我们未来的生活如何,很大程度上取决于这个问题解决得如何。
2022年6月22日。本文根据作者《博弈与社会》第六章第三节和第十三章第四节的部分内容修改而成。
BOOK
刘国恩:人类健康与经济增长
王军官场随笔二十五:做菜如做人,地道就好·误会·王双锡
张维迎:人们为什么遵守或违反社会规范
王军官场随笔二十四:任哲中·主席台上的平凹·陈忠实和崔健
张维迎:何老师,再听我一曲信天游
感谢您关注“辛庄课堂”。本公众号由“辛庄课堂”制作并享有版权;转载、摘录、引用、改编、阐释本号原创文章的部分或全部须获得授权并注明出处;若未经本号许可,将追究其相应责任。该平台引用的部分内容、图片、音/视频属于相关权利人所有,请相关权利人与我们联系协商相关授权事宜。谢谢!